﻿ Conservarea digitală a patrimoniului umanității și rolul cărții online Dan Cristea 1 Un parcurs tehnologic 2 Cartea online Zilele BCU, Iași, 9 noiembrie 2015 Partea 1: Un parcurs tehnologic Ce se mai întâmplă în lume în domeniul conservării patrimoniului spiritual? Zilele BCU, Iași, 9 noiembrie 2015 Real sau virtual? • Suntem inundați de informații – Percepția senzorială: auz, văz, miros, tacl, gust – În natură: sunete, imagini, parfumuri, angeri, gusturi Zilele BCU, Iași, 9 noiembrie 2015 Real sau virtual? • Suntem inundați de informații – Percepția senzorială: auz, văz, miros, tacl, gust – În natură: sunete, imagini, parfumuri, angeri, gusturi • Tehnicile de realitate virtuală – Care dintre senzații sunt perfect reproducbile și care doar palid? – Putem reproduce societatea prin tehnici digitale? – Putem reconstrui trecutul? – Dorim să lăsăm posterității senzațiile pe care le trăim noi acum când pășim pe stradă, când ne întâlnim cu prieteni, când ieșim în natură? Zilele BCU, Iași, 9 noiembrie 2015 Digital? Pentru ce? • Reproducem în digital pentru că realul e atât de prețios și nu vrem să-l pierdem, nu pentru că surogatul digital ar ﬁ de mai mare valoare decât realul… Zilele BCU, Iași, 9 noiembrie 2015 Digital? Pentru ce? • Reproducem în digital pentru că realul e atât de prețios și nu vrem să-l pierdem, nu pentru că surogatul digital ar ﬁ de mai mare valoare decât realul… • La polul maxim al suspiciunilor: are reconstrucția digitală valoare culturală? – E lipsită de materialitate! – Nu e cumva un kitch? – Am vrea să populăm un muzeu de artă cu reproduceri ale tablourilor, în lipsa originalelor? Zilele BCU, Iași, 9 noiembrie 2015 Ce sunt obiectele digitale? • Texte, sunete, imagini 2D și 3D, ﬁlme, animații 3D (reconstrucții), inclusiv produse instantaneu prin rularea unor coduri soware • Dar mai ales: combinații complexe între ele • Universul digital în 2010: aprox 2800 mld Gb Zilele BCU, Iași, 9 noiembrie 2015 Digital versus clasic • Avantaje – poate ﬁ dată unui public mult mai larg – spațiu de depozitare mic – mult mai ușor de căutat și de accesat – poate ﬁ folosită ușor pentru a crea noi valori, artefacte digitale – în principiu, nedegradabilă Zilele BCU, Iași, 9 noiembrie 2015 Digital versus clasic • Dezavantaje – diﬁcultăți enorme în păstrarea pe termen lung – reînnoirea permanentă a soului de stocare și acces – pe măsură ce infrastructura se schimbă • sisteme scalabile • compabile diferitelor puri de obiecte digitale – necesită un personal IT de specialitate caliﬁcat – “randament mai mic în studiu” – “sasfacție redusă în lectură” Zilele BCU, Iași, 9 noiembrie 2015 Instuțiile memoriei • Păstrătoare ale patrimoniului societății – Responsabile pentru captarea și conservarea de “eșanoane reprezentave ale societății” • Annee Balle Sorensen, Filip Kruse: Preservaon Planning: User Requirements for Digitally Preserved Materials, in Ercim News, Jan 2010 – Muzeele și arhivele: responsabile de conservarea originalelor – Bibliotecile: responsabile de păstrarea cópiilor (deși cărțile de patrimoniu sunt păstrate acolo ȘI în original) Zilele BCU, Iași, 9 noiembrie 2015 Tehnologia conservării digitale • Infrastructura conținutului digital – preluarea – stocarea – accesul – prelucrarea – securitatea datelor Zilele BCU, Iași, 9 noiembrie 2015 Tehnologia conservării digitale • Aspecte legale (drepturi de autor) – dreptul de a stoca resursele, – de a le difuza/reproduce (cui și sub ce licențe?) – de a le exploata (în folos didacc, al cercetării, comercial) – Open Data? – v proiecte gen Google Books Zilele BCU, Iași, 9 noiembrie 2015 Tehnologia conservării digitale • Conservarea de lungă durată – asigurarea accesului la obiectele digitale pe perioade extrem de lungi (decenii, secole) • nu atât perimarea ﬁzică a suporturilor… • cât perimarea lor morală • infrastructura se modernizează într-un ritm din ce în ce mai accelerat => incompabilități hardware și soware – accesul la informație – rularea aplicațiilor suport – interfețe ulizator care nu mai pot “ci” vechile formate – necesitatea de a concepe sisteme specializate de conservare => eforturi de cercetare ﬁnanțate de UE • suporturi pentru back-up (renașterea benzilor magnece…) Cine ulizează conținutul digital • Instuțiile memoriei – facilitând accesul publicului Zilele BCU, Iași, 9 noiembrie 2015 Cine ulizează conținutul digital • Instuțiile memoriei – facilitând accesul publicului • Instutele de cercetare șințiﬁcă, universitățile – studierea trecutului și a… viitorului (paernuri) – elaborarea de modele Zilele BCU, Iași, 9 noiembrie 2015 Cine ulizează conținutul digital • Instuțiile memoriei – facilitând accesul publicului • Instutele de cercetare șințiﬁcă, universitățile – studierea trecutului și a… viitorului (paernuri) – elaborarea de modele • Antreprenori comerciali, industriali – ca deținătoare a infrastructurii de achiziție și prelucrare – dezvoltatoare de aplicații și servicii bazate pe conținut – exploatarea comercială în conexiune cu piața Zilele BCU, Iași, 9 noiembrie 2015 Exploatarea comercială • Procesarea informațiilor => lanțul cunoaștere- valoare => economie a cunoașterii • Agenți economici (inclusiv cercetare industrială): depind de resurse digitale • Zona Big Data: extrem de ofensivă… Zilele BCU, Iași, 9 noiembrie 2015 Exemplu de infrastructură de conservare digitală • PROTAGE – PReservaon Organizaon using Tools in AGent Environments (proiect de cercetare FP7) – agenți soware inteligenți și servicii Web pentru conservare digitală – monitorirează procesul de conservare digitală – automazează transferul de obiecte digitale între depozite digitale Zilele BCU, Iași, 9 noiembrie 2015 PROTAGE • Permite creatorilor de conținut digital să producă și să publice obiecte digitale într-o manieră compabilă conservării pe perioade îndelungate de mp • Facilitează interoperabilitatea dintre creatorii de conținut digital (biblioteci și arhive) și consumatori • Oferă mijloace de automazare a proceselor de conservare Zilele BCU, Iași, 9 noiembrie 2015 Rețeaua DARIAH • Interesată de date șințiﬁce ulizate în șințele umaniste • Crearea unei infrastructuri solide care să asigure stabilitatea de lungă durată a valorilor digitale – aspecte de natură tehnică, sociologică etc • Standarde, bune pracci – Text Encoding Iniave (TEI) Zilele BCU, Iași, 9 noiembrie 2015 DARIAH • “Surogate digitale”: – rezumări/transformări ale formatelor originare: metadate, imagini scanate ale documentelor, fotograﬁi digitale, transcrieri ale unei surse textuale, analize spectrale ale înregistrărilor vocale – referințe pentru cercetare în lipsa originalelor ori completându-le – ulizate ca surse pentru crearea de noi surogate Zilele BCU, Iași, 9 noiembrie 2015 Acțiunea COST e-Read • Multe speculații asupra implicațiilor digizării asupra cogniției: probe empirice care indică impactul negav emoțional și cogniv al cirii de pe ecran • E-Read încearcă să explice pe temeiuri șințiﬁce implicațiile digizării în lectură, pentru a ajuta persoanele (societatea Europeană) să facă față opm efectelor • Folosește modele muldimensionale, integrave are lecturii, combină paradigme din șințele experimentale cu perspecve din șințele umaniste (e g , diacronică) => dezvoltă noi paradigme de cercetare și metrici pentru evaluarea impactului digizării asupra actului lecturii Zilele BCU, Iași, 9 noiembrie 2015 Partea a 2-a: Cartea online Dincolo de deliciile lecturii Zilele BCU, Iași, 9 noiembrie 2015 Kindle • Adecvat contextelor de lectură precare (vacanță, călătorie) => “încarc în Kindle doar cărți ușoare, memorialiscă, polițiste…” => nu predispune reﬂecțiilor, “nu mi-am făcut niciodată note…”, “cărțile mari trebuie cite de pe hâre…” Zilele BCU, Iași, 9 noiembrie 2015 Ce e cartea online? • Google: – 264 000 de rezultate în căutarea expresiei “car online” – 4 150 000 rezultate pentru “online books” • Așadar: portaluri de unde pot descărca gratuit cărți digitale? • Există și o altă dimensiune… Zilele BCU, Iași, 9 noiembrie 2015 MappingBooks Evadează din carte în lumea virtuală și reală! Zilele BCU, Iași, 9 noiembrie 2015 Îmi place să citesc și să călătoresc… Zilele BCU, Iași, 9 noiembrie 2015 Ah… nu-mi mai amintesc toate relațiile de rudenie menționate în carte! Zilele BCU, Iași, 9 noiembrie 2015 Personajele din “Forsyte Saga” • The old Forsytes Ann, the eldest of the family Old Jolyon, the patriarch of the family, having made a fortune in tea James, a solicitor, married to Emily, a most tranquil woman Swithin, James's twin brother with aristocrac pretensions; a bachelor Roger, "the original Forsyte" Julia (Juley), a ﬂuery dowager; Mrs Sepmus Small Hester, an old maid Nicholas, the wealthiest in the family Timothy, the most cauous man in England Susan, the married sister • The young Forsytes Young Jolyon, Old Jolyon's arsc and free-thinking son, married three mes Soames, James and Emily's son, an intense, unimaginave and possessive solicitor, married to the unhappy Irene, who later marries Young Jolyon Winifred, Soames's sister, one of the three daughters of James and Emily, married to the foppish and lethargic Montague Dare George, Roger's son, a dyed-in-the-wool mocker Francie, George's sister and Roger's daughter, emancipated from God • Their children June, Young Jolyon's deﬁant daughter from his ﬁrst marriage; engaged to an architect, Philip Bosinney, who becomes Irene's lover Jolly, Young Jolyon's son from his second marriage; dies of enteric fever during the Boer Wars Holly, Young Jolyon's daughter from his second marriage, to June's governess Jon, Young Jolyon's son from his third marriage, to Irene, Soames's ﬁrst wife Fleur, Soames's daughter from his second marriage, to a French Soho shopgirl Annee; Jon's lover; later marries a baronet, Michael Mont Val, Winifred and Montague's son; ﬁghts in the Boer Wars; marries his cousin Holly Imogen, Winifred and Montague's daughter • Others Parﬁ, Old Jolyon's butler Smither, Aunts Ann, Juley and Hester's housekeeper Warmson, James and Emily's butler Bilson, Soames's housemaid Prosper Profond, Winifred's admirer and Annee's lover Zilele BCU, Iași, 9 noiembrie 2015 Zilele BCU, Iași, 9 noiembrie 2015 Ce ar ﬁ să pot ieși afară din carte… Çelebi Mh , Maç Sk, Beyoğlu, Turkey to Çukur Cuma Cd, Beyoğlu, Turkey - Google Maps10/3/13 8:13 PMKatip Directions to Çukur Cuma Cd, Beyo!lu, Turkey 400 m – about 4 mins Walking directions are in beta Use caution – This route may be missing sidewalks or pedestrian paths Katip Çelebi Mh , Maç Sk, Beyo!lu, Turkey" 1 Head southwest on Maç Sk toward Baltacı Çkgo 75 m About 47 secstotal 75 m 2 Turn right onto Turnacıba"ı Cdgo 28 m total 100 m 3 Turn left onto A!a Külhanı Sk (Altıpatlar Sk )go 130 m About 2 minstotal 240 m 4 Continue onto Çukur Cuma Cdgo 150 m About 1 mintotal 400 m Zilele BCU, Iași, 9 noiembrie 2015 Page 1 of 2https://maps google com/maps?f=d&source=s d&saddr=Maç+Sokak,+I…,288 55,2 369,37 281,0&layer=c&ei=OqVNUp3mE8nTtAaWr4CgCQ&pw=2 Ideea • În prezent: ﬁecare carte – atâți citori… • MappingBooks: Cumpăr o carte… Incredibil! A fost scrisă special pentru mine! Zilele BCU, Iași, 9 noiembrie 2015 Către… cărțile vii • Construcții muldimensionale care combină date de natură textuală, geograﬁcă, temporală • Pune în evidență mențiunile de persoane, locații… • Ulizează tehnici de legare a entăților (enty linking) – conectează mențiuni din carte în lumea virtuală • Legături sensibile la: – contextul mențiunii din carte – locația curentă a citorului – momentul lecturii – personalitatea și preferințele citorului Exemple de ulizare - Vizitez un oraș cu un ghid de călătorie în mână - locurile de interes, traseele, sunt re-ordonate în funcție de poziția mea Zilele BCU, Iași, 9 noiembrie 2015 Exemple de ulizare - Vizitez un oraș cu un ghid de călătorie în mână - locurile de interes, traseele, sunt re-ordonate în funcție de poziția mea - Sunt elev și călătoresc cu trenul de la Sibiu la Bucureș… - dacă îmi deschid tableta și o îndrept spre fereastra din dreapta, voi vedea semnalate vârfurile munților Făgăraș, exact ca în manualul de Geograﬁe Zilele BCU, Iași, 9 noiembrie 2015 Exemple de ulizare - Vizitez un oraș cu un ghid de călătorie în mână - locurile de interes, traseele, sunt re-ordonate în funcție de poziția mea - Sunt elev și călătoresc cu trenul de la Sibiu la Bucureș… - dacă îmi deschid tableta și o îndrept spre fereastra din dreapta, voi vedea semnalate vârfurile munților Făgăraș, exact ca în manualul de Geograﬁe - Sunt în Paris pentru a 3-a oară… - dar numai acum ghidul meu MB Lonely Planet îmi semnalează această expoziție deschisă în Piramidă Zilele BCU, Iași, 9 noiembrie 2015 Exploatarea informației textuale în MappingBooks Aplicația 1) conectează mențiuni ale entăților (grupuri nominale) => ﬁecărei entăți îi corespunde un lanț coreferențial; Zilele BCU, Iași, 9 noiembrie 2015 Aplicația 1) conectează mențiuni ale entăților (grupuri nominale) => ﬁecărei entăți îi corespunde un lanț coreferențial; 2) Baza de cunoșnțe nu conține niciun fel de înregistrări despre entăți => ea se dezvoltă plecând de la zero; Zilele BCU, Iași, 9 noiembrie 2015 Aplicația 1) conectează mențiuni ale entăților (grupuri nominale) => ﬁecărei entăți îi corespunde un lanț coreferențial; 2) Baza de cunoșnțe nu conține niciun fel de înregistrări despre entăți => ea se dezvoltă plecând de la zero; 3) Idenﬁcă relații geograﬁce (poziții reciproce, distanțe, apropiere, intersecții etc ); Zilele BCU, Iași, 9 noiembrie 2015 Aplicația 1) conectează mențiuni ale entăților (grupuri nominale) => ﬁecărei entăți îi corespunde un lanț coreferențial; 2) Baza de cunoșnțe nu conține niciun fel de înregistrări despre entăți => ea se dezvoltă plecând de la zero; 3) Idenﬁcă relații geograﬁce (poziții reciproce, distanțe, apropiere, intersecții etc ); 4) Textele invesgate: manuale de Geograﬁe și ghiduri de călătorie Zilele BCU, Iași, 9 noiembrie 2015 TA = Text Analytics NER = Name Entity Recognition AR = Augmented Reality EC = Entity Crowling DEV = Device Info RD = Relations Detection INT = Interfaces GEO = Geography RES = Resources M&T = Maps and Trajectories M&E = Management and Evaluation Zilele BCU, Iași, 9 noiembrie 2015 MappingBooks se adresează… • Tinerilor, elevilor – îi putem oare recâșga ca citori? • Adolescenților, aventurierilor, călătorilor, iubitorilor de excursii – socializare asupra locurilor aminte în ghiduri • Pensionarilor – relaționare asupra lecturilor comune, preferințelor culturale • Cercetătorilor în Tehnologia limbajului & Lingviscă computațională – acces la resurse lingvisce adnotate • Deținătorilor de date textuale (edituri, companii media, ziare) – pentru a-și vinde mai bine produsele • Administrația locală, agențiilor turisce – popularizarea locațiilor de interes local sau turisc Zilele BCU, Iași, 9 noiembrie 2015 MappingBooks: mulțumiri • Studenții de la Fac Informacă – protop, ca proiect de semestru la cursul de IA, 2013-2014 • Grant al Ministerului Educației și Cercetării, iulie 2014 – decembrie 2016 • Colegii mei: Ionuț Pistol, Daniela Gîfu, Daniel Anechitei (Fac Informacă), Mihai Niculiță (Fac Geograﬁe) • Univ “Ștefan cel Mare” Suceava • SIVECO – Bucureș Zilele BCU, Iași, 9 noiembrie 2015 Corpusul ‘QuoVadis’ Zilele BCU, Iași, 9 noiembrie 2015 Un corpus de entăți și relații semance • Tipuri de entăți: – persoane – zei – grupuri de persoane și zei – părți ﬁzice • Relații semance exprimate între aceste puri de entăți Zilele BCU, Iași, 9 noiembrie 2015 Entăți • Personaje (Marcus Vinicius, Ligia), grupuri (creșnii, soldații); • La nivelul textului: grupuri nominale (tânărul patrician, ﬁul consulului); • Entăți incluse: [Te]1 [iubesc; REALISATION=INCLUDED]2, Marcus! • Expresii referențiale imbricate: [ﬁica [lui Aulus]2]1 Zilele BCU, Iași, 9 noiembrie 2015 Tipuri de relații • Anaforice • Semance – rudenie – afecve – sociale Zilele BCU, Iași, 9 noiembrie 2015 Relații anaforice • coref • coref-interpret • member-of, has-as-member (inverse) • isa, class-of (inverse) • part-of, has-as-part (inverse) • subgroup-of, has-as-subgroup (inverse) • has-name, name-of (inverse) 1:[Ligia] 2:[tânăra libertă] => coref 1:[mâna 2:[lui] dreaptă] => part-of Zilele BCU, Iași, 9 noiembrie 2015 Relații de rudenie • parent-of • child-of (inverse of parent-of) • grandparent-of and grandchild-of (inverse) • sibling (symmetrical) • ant-uncle-of, nephew-of (inverse relaon) • cousin-of (symmetrical) • spouse-of (symmetrical) • unknown 1:[celui de-al doilea soț 2:[al Popeii]] => spouse-of 1:[sora lui 2:[Petronius]] => sibling-of Zilele BCU, Iași, 9 noiembrie 2015 Relații sociale • superior-of • inferior-of • in cooperaon-with • colleague-of • in compeon-with • opposite-to Eliberând- 1:[o], 2:[Nero]… => superior-of 1:[Tânărul] luptase sub comanda 2:[lui Corbulon] => inferior-of Zilele BCU, Iași, 9 noiembrie 2015 Relații afecve • love • loved-by • hate • hated by • upset • friendship • worship Pe 1:[Vinicus] îl cuprinse o mânie năprasnică împotriva 2:[împăratului] și împotriva 3:[Acteii] => hate , hate Zilele BCU, Iași, 9 noiembrie 2015 căsătorise Marcus cu Vinicius TYPE="parent-of"> era tatăl TYPE="child-of"> acestuia ﬁul TYPE="sibling-of"> surorii TYPE="inferior-of"> a sale e consul mai pe mari vremea tar lui o Tiberiu n , d A TYPE="spouse-of"> care REFERENTIAL> , cu REFERENTIAL> ani în urmă , of" /REFERENTIAL> se Stasci asupra corpusului • 7 281 fraze • 146 822 cuvinte și semne de punctuație • 24 636 mențiuni de entăți • 22 301 relații referențiale • 755 relații AKS (Aﬀecve + Kinship + Social) • 752 triggere Zilele BCU, Iași, 9 noiembrie 2015 Example: relațiile love și worship Zilele BCU, Iași, 9 noiembrie 2015 Relațiile afecve fear-of și hate Zilele BCU, Iași, 9 noiembrie 2015 Relațiile lui Vinicius cu alte personaje Zilele BCU, Iași, 9 noiembrie 2015 Distribuția relațiilor semance în care este implicat personajul Vinicius Zilele BCU, Iași, 9 noiembrie 2015 Linguiscs Linked Open Data (LLOD) - Dezvoltarea de tehnici care vor permite descifrarea conținutului semanc al textelor - rezumate (generale, parțiale, focalizate pe personaje), - linii narave (e g evoluția senmentelor dintre Vinicius și Ligia) - conexiuni stace între entăți (e g arbori genealogici), - stasci asupra entăților (e g senmentele majoritare ale creșnilor comparate cu cele ale romanilor) Zilele BCU, Iași, 9 noiembrie 2015 Linguiscs Linked Open Data (LLOD) - Generarea de ontologii din colecții de tratate - aplicații care “citesc” tratatele unui domeniu și formalizează conceptele și instanțele acestora - Căutare documentară inteligentă - asistenți personalizați ai acvității de cercetare Zilele BCU, Iași, 9 noiembrie 2015 QuoVadis: mulțumiri • Studenții de la Masteratul de Lingviscă Computațională seria 2012-2014 – adnotare • Anca Bibiri, Cătălina Mărănduc, Daniela Gîfu – coordonare, validare, corectare • Paul Diac, Andrei Scutelnicu, Mihaela Colhon (Univ Craiova) – programare Zilele BCU, Iași, 9 noiembrie 2015 DAICA Digital Assistant Invesgang Cultural Assets Lothar Hotz1, Dan Cristea2, Justyna Pietrzak3, Marn Povazay4, Brigie Rauter4, Daniela Buleandra5 Int Workshop on INTELLIGENT EXPLORATION OF SEMANTIC DATA (IESD 2015) 1 University of Hamburg, Hamburger Informacs Technology Center e V , Germany 2 University Alexandru Ioan Cuza and Romanian Academy, Romania 3 Eleka Ingeniaritza Linguiskoa S L , Spain 4 P Soluons, Austria 5 SIVECO Romania SA, Romania Zilele BCU, Iași, 9 noiembrie 2015 DAICA – un nou p de asistent de cercetare în SSU Manuscrisul de cercetare SSU Cercetător DAICA Descoperă domeniul și tema prin upload în DAICA analiza de text și clasiﬁcare entăți Editează/ﬁltrează/ordonează liste preliminare Solicită copii pe hâre ale documentului Mișcă tableta peste document OCR, descoperă entăți, relații semance imagine Găsește surse similare din biblioteci de pe mapamond ntăți, relații, surse Examinnează, corelează, îmbunătățește arcolul e pload în DAICA Instanțiere DAICA proprie/publică u DAICA “înțelege” ceea ce scrie cercetătorul în computer DAICA semnalează interacv dacă surse diferite fac Cercetătorul apreciază diferențele în datele istorice, aprecieri similare/diferite asupra aceluiași aspect editează notele, selectează lista de referințe sugerată de DAICA, DAICA sugerează alte surse de invesgație etc formulează varianta ﬁnală a arcolului DAICA face rezumate și traduce sursele în limba cercetătorului DAICA completează automat citările Google Books Library project (hp://www google com/googlebooks/library/): – 130 milioane de tluri disncte • 480 de limbi • 20% în domeniul public • 10-15% in print • restul: out of print – 25 milioane cărți scanate – lucrează cu 40 de mari biblioteci “our goal is to improve access to books – not to replace them” Zilele BCU, Iași, 9 noiembrie 2015 Alte proiecte • Europeana – bibliotecă digitală europeană – inițiava EU (2005): Jacques Chirac & alți președinți – contribuie 2000 instuții – în 2010: +10 ml obiecte digitale (hp://www europeana eu/portal/) • Gutenberg – efort colecv voluntar de a digiza și stoca opere de cultură (degrevate de drepturi de autor) în format digital – Autor: Michael Hart – oct 2015: 50 000 obiecte digitale (hps://en wikipedia org/wiki/Project Gutenberg) Vă mulțumesc! 67 Zilele BCU, Iași, 9 noiembrie 2015 